Дмитрий Масленников, «Т-Банк»
RED — Request, Errors, Duration
Запросы, Ошибки, Длительность
Нас интересуют внешние и внутренние RED метрики
Ресурс — физические ресурсы сервера (CPU, память, место на диске, файловые дескрипторы и т.п.) и внутренние ресурсы приложения (открытые соединения в пуле, воркеры и т.п.), которые могут исчерпаться
USE — Utilization, Saturation, Errors
Утилизация, Насыщение, Ошибки
Машина реагирует быстрее человека и никогда не спит
Может усугубить сбой или даже вызвать его
Disaster Recovery Plan
План восстановления после катастрофы
Практически план восстановления после потери всей инфраструктуры из бекапов
Disaster Recovery Testing
Тестирование плана восстановления после катастроф
Место где все соберутся должно быть определено заранее и хорошо известно всем
Google использует IRC чаты для коммуникации во время сбоев